弹性 MapReduce HDFS 通过 DistCp 数据迁移实践 | 您所在的位置:网站首页 › sparkstreaming hive › 弹性 MapReduce HDFS 通过 DistCp 数据迁移实践 |
如果您需要将自有 HDFS 的原始数据迁移至腾讯云 EMR,可以通过两种方式进行数据迁移,第一种是通过腾讯云对象存储(COS)进行数据中转迁移,第二种是通过 Hadoop 自带文件迁移工具 DistCp 进行数据迁移。本文主要介绍通过 DistCp 进行数据迁移。 DistCp(distributed copy)是 Hadoop 自带的文件迁移工具。它使用 MapReduce 来实现其分发、错误处理和恢复、报告的功能。它将文件和目录的列表扩展为映射任务的输入,每个任务将复制源列表中指定的文件的分区。使用 DistCp 需要实现自建集群和 EMR 集群的网络互通。使用 DistCP 数据迁移步骤如下: 步骤1:网络打通本地自建 HDFS 文件迁移到 EMR本地自建 HDFS 文件迁移到 EMR 集群需要有专线打通网络,可以联系开发人员协助解决。 CVM 上的自建 HDFS 文件迁移到 EMR CVM 的所属网络和 EMR 集群的所属网络在同一 VPC 下,则可以自由传送文件。 CVM 的所属网络和 EMR 集群的所属网络在不同 VPC 下,需要使用对等连接将网络打通。 使用对等连接网段1:广州的 VPC1 中的子网 A 192.168.1.0/24。网段2:北京的 VPC2 中的子网 B 10.0.1.0/24。 登录 私有网络控制台-对等连接,在列表上方选择地域广州,选择私有网络 VPC1,然后单击+新建。![]() 如果本端网络和对端网络都在同一地域,例如广州,通信是免费的,也不需要选择带宽上线;如果不在同一地域,就要进行收费,同时带宽上限可选。 对端地域:填写对端地域,例如北京。 对端网络:填写对端网络,例如 VPC2。![]() ![]() ![]() ![]() 对于上述命令,必须要求源和目的版本相同。 如果另一个客户端仍然在写入源文件,则该拷贝可能会失败;如果一个文件正在被拷贝到目的端,试图重写该文件的操作会失败;如果源文件在被复制之前被移动,那么拷贝将失败,报错信息为 FileNotFoundException。 |
CopyRight 2018-2019 实验室设备网 版权所有 |